Какие компромиссы при выборе более сложной модели для маленького, но чистого датасета, versus более простой модели для большого, но шумного датасета
▪️Сложная модель на маленьком, но качественном датасете: — Может лучше обобщать, если шум минимален, потому что на таком датасете модель фокусируется на сильных, стабильных паттернах. — Однако, сложные модели могут переобучаться при недостаточном объеме данных, особенно если выборка не отражает всю разнообразие распределения данных.
▪️Простая модель на большом, шумном датасете: — Простая модель может быть более устойчивой к выбросам и случайному шуму, если данных достаточно, чтобы сгладить несоответствия. — Если шум не слишком велик, то большой датасет может позволить модели выявить общие тенденции, несмотря на неточности.
▪️ Подводные камни и крайние случаи: — Несоответствие между емкостью модели и размером данных: сложная модель может запомнить маленькие подмножества данных, не научившись обобщать.
— Чрезмерное упрощение при сильном шуме: если датасет слишком шумный и при этом используется простая модель, можно недообучиться, упустив важные детали.
— Сдвиги в распределении данных: сложная модель может случайно выучить артефакты, которые встречаются только в маленькой выборке, в то время как простая модель на большом датасете может схватывать более обобщенные особенности.
Какие компромиссы при выборе более сложной модели для маленького, но чистого датасета, versus более простой модели для большого, но шумного датасета
▪️Сложная модель на маленьком, но качественном датасете: — Может лучше обобщать, если шум минимален, потому что на таком датасете модель фокусируется на сильных, стабильных паттернах. — Однако, сложные модели могут переобучаться при недостаточном объеме данных, особенно если выборка не отражает всю разнообразие распределения данных.
▪️Простая модель на большом, шумном датасете: — Простая модель может быть более устойчивой к выбросам и случайному шуму, если данных достаточно, чтобы сгладить несоответствия. — Если шум не слишком велик, то большой датасет может позволить модели выявить общие тенденции, несмотря на неточности.
▪️ Подводные камни и крайние случаи: — Несоответствие между емкостью модели и размером данных: сложная модель может запомнить маленькие подмножества данных, не научившись обобщать.
— Чрезмерное упрощение при сильном шуме: если датасет слишком шумный и при этом используется простая модель, можно недообучиться, упустив важные детали.
— Сдвиги в распределении данных: сложная модель может случайно выучить артефакты, которые встречаются только в маленькой выборке, в то время как простая модель на большом датасете может схватывать более обобщенные особенности.
At a time when the Indian stock market is peaking and has rallied immensely compared to global markets, there are companies that have not performed in the last 10 years. These are definitely a minor portion of the market considering there are hundreds of stocks that have turned multibagger since 2020. What went wrong with these stocks? Reasons vary from corporate governance, sectoral weakness, company specific and so on. But the more important question is, are these stocks worth buying?
For some time, Mr. Durov and a few dozen staffers had no fixed headquarters, but rather traveled the world, setting up shop in one city after another, he told the Journal in 2016. The company now has its operational base in Dubai, though it says it doesn’t keep servers there.Mr. Durov maintains a yearslong friendship from his VK days with actor and tech investor Jared Leto, with whom he shares an ascetic lifestyle that eschews meat and alcohol.
Библиотека собеса по Data Science | вопросы с собеседований from jp